Average word length | # of sentences | Source |
---|---|---|
8.69 | 19 | http://mrj.wikipedia.org/wiki/Плевроталлис |
10.91 | 10 | http://mrj.wikipedia.org/wiki/У |
11.56 | 23 | http://mrj.wikipedia.org/wiki/Петюка |
11.68 | 10 | http://mrj.wikipedia.org/wiki/Ош_цӓрлӓнгӹ |
11.69 | 11 | http://mrj.wikipedia.org/wiki/Котка |
11.69 | 17 | http://mrj.wikipedia.org/wiki/Изи_принц |
11.73 | 19 | http://mrj.wikipedia.org/wiki/Гог,_Винсент_ван |
11.75 | 10 | http://mrj.wikipedia.org/wiki/Форсса |
11.85 | 87 | http://mrj.wikipedia.org/wiki/Иван_Горный._Сценари.Автор_-_Микрякова_О.С. |
11.90 | 15 | http://mrj.wikipedia.org/wiki/Оулу |
11.92 | 10 | http://mrj.wikipedia.org/wiki/Лоймаа |
11.93 | 36 | http://mrj.wikipedia.org/wiki/Володькин,_Николай_Николаевич |
11.96 | 13 | http://mrj.wikipedia.org/wiki/Альбинский,_Андрей_Данилович |
12.03 | 14 | http://mrj.wikipedia.org/wiki/Марсельеза_(мыры) |
12.05 | 16 | http://mrj.wikipedia.org/wiki/Наантали |
12.09 | 13 | http://mrj.wikipedia.org/wiki/Цермӹшал |
12.10 | 10 | http://mrj.wikipedia.org/wiki/Мордови_Республика |
12.15 | 50 | http://mrj.wikipedia.org/wiki/Юханнус_айо |
12.20 | 14 | http://mrj.wikipedia.org/wiki/Тошты_Тарашныр |
12.21 | 12 | http://mrj.wikipedia.org/wiki/Пори |
12.23 | 212 | http://mrj.wikipedia.org/wiki/Шачмы_велем |
12.25 | 83 | http://mrj.wikipedia.org/wiki/Шӹргӹйӓл |
12.26 | 10 | http://mrj.wikipedia.org/wiki/Мары_йӹлмӹштӹш_лӹм_шамак |
12.27 | 12 | http://mrj.wikipedia.org/wiki/Мары_халык_выргем |
12.28 | 38 | http://mrj.wikipedia.org/wiki/Пет_Першут |
12.29 | 15 | http://mrj.wikipedia.org/wiki/Юан_нер |
12.31 | 44 | http://mrj.wikipedia.org/wiki/Шурдӹнг |
12.35 | 11 | http://mrj.wikipedia.org/wiki/Лым_ӹдӹр |
12.37 | 15 | http://mrj.wikipedia.org/wiki/Ловииса |
12.40 | 11 | http://mrj.wikipedia.org/wiki/Пырастай |
Average word length | # of sentences | Source |
---|---|---|
15.81 | 13 | http://mrj.wikipedia.org/wiki/Сидушкина,_Анна_Романовна |
15.81 | 25 | http://mrj.wikipedia.org/wiki/Радугин,_Феофан_Григорьевич |
15.60 | 11 | http://mrj.wikipedia.org/wiki/Сигачков,_Зосим_Африканович |
15.46 | 18 | http://mrj.wikipedia.org/wiki/Коротков,_Сергей_Дмитриевич |
14.93 | 11 | http://mrj.wikipedia.org/wiki/Лукианов_Станислав_Сергеевич |
14.93 | 149 | http://mrj.wikipedia.org/wiki/Европын_Согоньжы |
14.79 | 18 | http://mrj.wikipedia.org/wiki/Европа_Унионын_лӹмжӹ_гишäн |
14.72 | 28 | http://mrj.wikipedia.org/wiki/Тяньцзинь_концессий |
14.49 | 26 | http://mrj.wikipedia.org/wiki/Финн-угор_сирӹзӹвлӓн_конгресс |
14.45 | 10 | http://mrj.wikipedia.org/wiki/Микрӓк_музыка_школ |
14.45 | 12 | http://mrj.wikipedia.org/wiki/Стриндберг,_Юхан_Август |
14.45 | 11 | http://mrj.wikipedia.org/wiki/Бояринова_Вера |
14.43 | 14 | http://mrj.wikipedia.org/wiki/Алдиар_Крисам |
14.36 | 12 | http://mrj.wikipedia.org/wiki/Ядарова,_Валентина_Егоровна |
14.34 | 54 | http://mrj.wikipedia.org/wiki/Венгр_барокко_сӹлнӹшая |
14.33 | 16 | http://mrj.wikipedia.org/wiki/Ошкан_Васли |
14.29 | 12 | http://mrj.wikipedia.org/wiki/Куопио |
14.28 | 11 | http://mrj.wikipedia.org/wiki/Кариотакис,_Костас |
14.19 | 13 | http://mrj.wikipedia.org/wiki/Йоласал_школ |
14.16 | 10 | http://mrj.wikipedia.org/wiki/Ницше,_Фридрих_Вильгельм |
14.10 | 40 | http://mrj.wikipedia.org/wiki/Кырык_мары_драма_театр |
14.10 | 27 | http://mrj.wikipedia.org/wiki/Эдемӹн_прававлӓжӹ |
14.04 | 16 | http://mrj.wikipedia.org/wiki/Аристотель |
14.03 | 13 | http://mrj.wikipedia.org/wiki/Веткина,_Юлия_Алексеевна |
13.98 | 11 | http://mrj.wikipedia.org/wiki/Тойдемар,_Павел_Степанович |
13.96 | 22 | http://mrj.wikipedia.org/wiki/Мары_культура_кечӹвлӓ_Парижӹштӹ_2010_ин |
13.95 | 96 | http://mrj.wikipedia.org/wiki/Венгриштӹ_ренессанс_жепӓш_сӹлнӹшая |
13.94 | 16 | http://mrj.wikipedia.org/wiki/Эшмякова,_Фаина_Викторовна |
13.92 | 10 | http://mrj.wikipedia.org/wiki/Матюковский,_Геннадий_Иванович |
13.89 | 18 | http://mrj.wikipedia.org/wiki/Вӧрӧшмарти,_Михай |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words